بهبود طبقه بندی داده های نامتوازن

پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه تحصیلات تکمیلی صنعتی کرمان - دانشکده برق و کامپیوتر
نویسنده نیلوفر افشاری ابولکرلو
استاد راهنما علی اکبر نیک نفس
سال انتشار 1393

چکیده

یکی از حوزه های مهم در داده کاوی طراحی الگوریتم های کلاس بندی با دقت بالا است. این امر به ویژه در شرایطی که داده ها دارای پراکندگی نامتوازن باشند، پیچیدگی بیشتری پیدا می کند. یادگیری کلاس نامتوازن به یادگیری از مجموعه داده های نامتوازن اشاره دارد که در آن تعداد نمونه های کلاس گروه اقلیت به طور قابل توجه ای کمتر از نمونه های کلاس گروه اکثریت است. به توجه به اینکه اکثر الگوریتم های یادگیری، طبقه بند را براساس این فرض که تعداد نمونه های آموزش از هرکلاس با هم برابر است، آموزش می دهند، زمانی که این الگوریتم ها را به مجموعه داده های نامتوازن اعمال می کنیم، طبقه بند یادگرفته شده غالباً از کلاس اکثریت منتج می شود که این موضوع باعث پیش بینی بسیار ضعیف کلاس اقلیت می شود، زیرا آموزش کلاس اقلیت به درستی انجام نشده است. در اغلب موارد، کاربر تمایل بیشتری به پیش بینی نمونه های کلاس اقلیت دارد، بنابراین کنترل و حل مسأله داده ی نامتوازن برای بهبود کارآیی امری ضروری است. طبقه بند ترکیب جمعی به عنوان یک راه حل ممکن رفع مشکل داده های نامتوازن، توجه بسیاری از محققان را جلب کرده است. هدف اصلی از روش ترکیب جمعی، بهبود عملکرد یک طبقه بند با ایجاد چند طبقه بند پایه و ترکیب آن ها برای به دست آوردن طبقه بندی جدید است که بهتر از هر یک از طبقه بندهای پایه، عمل می کند. در این پایان نامه دو الگوریتم ترکیب جمعی ناب و جدید، برای طبقه بندی داده های نامتوازن معرفی شده است. در الگوریتم های پیشنهادی، مجموعه داده های آموزش بعد از اعمال یک مرحله پیش پردازش داده ها، با استفاده از تکنیک خوشه بندی، به تعدادی خوشه در لایه های مختلف شکسته می شوند و طبقه بندهای پایه، روی نمونه های هر خوشه آموزش می بینند. در روش پیشنهادی اول از الگوریتم خوشه بندی سلسله مراتبی و در روش پیشنهادی دوم از الگوریتم خوشه بندی کاهشی استفاده شده است. پیاده سازی روش های پیشنهادی روی مجموعه داده های مشهور و مقایسه ی آن با روش های معروفی مانند smotebaggingو smoteboost نشان می دهد که روش های پیشنهادی عملکرد قابل قبولی دارند.

منابع مشابه

طبقه بندی داده های نامتوازن با استفاده از ترکیب طبقه بندها و توصیف گرهای بردار پشتیبان

مسئله طبقه بندی داده های نامتوازن به عنوان یکی از چالش های اصلی در حوزه ی داده کاوی، مورد توجه بسیاری از محققان و پژوهش گران قرار گرفته است. در سال های اخیر تحقیقات ارزشمند زیادی برای حل مسئله طبقه بندی داده های نامتوازن انجام شده است. در بین این تحقیقات، رهیافت های مبتنی بر ترکیب طبقه بندها از موفقیّت قابل توجهی برخوردار بوده اند. علیرغم کارهای بسیار مؤثر انجام شده در ترکیب طبقه بندها هنوز بر...

15 صفحه اول

بهبود الگوریتم های طبقه بندی مجموعه داده های نامتوازن با استفاده از روش های فازی و الگوریتم های تکاملی

طبقه بندی عملی مهم در داده کاوی و کشف دانش از پایگاه داده است. در اغلب موارد، زمانی که تلاش می کنیم تا یک طبقه بند را از داده های آموزشی یاد بگیریم، داده های آموزشی توزیع کلاس نامتوازنی دارند. مسألهی طبقه‏بندی نامتوازنِ باینری بدین صورت تعریف می شود: یک مسأله ی طبقه‏بندی است که در آن تفاوت قابل توجهی میان میزان نمونه‏های دو کلاس‎ وجود دارد. اغلب الگوریتم های یادگیری ماشین فرض می کنند که تعداد ن...

طبقه بندی راه های شهری مبتنی بر ادغام در سطح تصمیمات داده های نوری و راداری

در این مقاله قابلیت تصاویر اسپات و سار به منظور تشخیص عارضه راه در مناطق شهری مورد بررسی قرار گرفته است. شباهت طیفی عارضه راه با سقف آسفالت ساختمان ها در مناطق شهری موجب بروز مشکلاتی در تشخیص راه مبتنی بر داده های اپتیک از جمله اسپات می گردد. از سوی دیگر، تصاویر سار با اینکه قابلیت خوبی در تشخیص راههای فرعی و باریک دارند، اما در تشخیص راه از پوشش گیاهی دچار مشکلاتی می شود. بنابراین، نتایج حاصل ...

متن کامل

بهبود کلاس بندی داده های نامتوازن با استفاده از الگوریتم های یادگیری ماشین

در دنیای امروز مسئله کلاس بندی داده های نا متوازن از اهمیت خاصی برخوردار است . کلاس بندی این داده ها به گونه ای است که ، کلاسی که از نظر دامنه کاربرد اهمیت زیادی دارد (کلاس اقلیت ) شامل تعداد حالات کمتری نسبت به کلاسی است که از اهمیت خاصی برخوردار نیست (کلاس اکثریت). به این مجموعه داده ها داده های نامتوازن می گویند. روش های مختلفی برای کلاس بندی این نوع داده ها ارائه شده است .در کلاس بندی این د...

مقایسه ی الگوریتم های مختلف طبقه بندی داده ها برای تعیین نوع زردی در نوزادان

Background and Aim: Neonatal jaundice is a matter that is very important for clinicians all over the world because this disease is one of the most common cases that requires clinical care. The aim of this study is to use data classification algorithms to predict the type of jaundice in neonates, and therefore, to prevent irreparable damages in future. Materials and Methods: This is a descripti...

متن کامل

ارائه یک سیستم طبقه بندی کننده چندگانه فازی برای ادغام داده های فراطیفی و لیدار

محدودیتهای سنجندههای مختلف سنجش از دور و ضعف آنها در شناسایی عوارض مختلف باعث شد ادغام دادههای حاصل از سنجندههای مختلف به منظور بهبود نتایج طبقه بندی مورد توجه قرار گیرد. در میان سنجندههای مختلف کنونی، در سالهای اخیر دو سنجنده فراطیفی و لیدار به منظور طبقهبندی زمین بسیار پرکاربرد بودهاند. دادههای حاصل از لیدار اطلاعات ارتفاعی مناسبی را از عوارض زمینی به ویژه عوارض دارای ارتفاع مانند سا...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه تحصیلات تکمیلی صنعتی کرمان - دانشکده برق و کامپیوتر

کلمات کلیدی

داده¬های نامتوازن یادگیری کلاس نامتوازن طبقه¬بند ترکیب جمعی طبقه¬بندهای ترکیب جمعی براساس خوشه¬بندی تنوع در طبقه¬بندهای ترکیب جمعی الگوریتم ‍ژنتیک

میزبانی شده توسط پلتفرم ابری doprax.com